This article presents morphologically-annotated Yemeni, Sudanese, Iraqi, and Libyan Arabic dialects Lisan corpora. Lisan features around 1.2 million tokens. We collected the content of the corpora from several social media platforms. The Yemeni corpus (~ 1.05M tokens) was collected automatically from Twitter. The corpora of the other three dialects (~ 50K tokens each) came manually from Facebook and YouTube posts and comments. Thirty five (35) annotators who are native speakers of the target dialects carried out the annotations. The annotators segemented all words in the four corpora into prefixes, stems and suffixes and labeled each with different morphological features such as part of speech, lemma, and a gloss in English. An Arabic Dialect Annotation Toolkit ADAT was developped for the purpose of the annation. The annotators were trained on a set of guidelines and on how to use ADAT. We developed ADAT to assist the annotators and to ensure compatibility with SAMA and Curras tagsets. The tool is open source, and the four corpora are also available online.
translated by 谷歌翻译
This article presents a novel review of Active SLAM (A-SLAM) research conducted in the last decade. We discuss the formulation, application, and methodology applied in A-SLAM for trajectory generation and control action selection using information theory based approaches. Our extensive qualitative and quantitative analysis highlights the approaches, scenarios, configurations, types of robots, sensor types, dataset usage, and path planning approaches of A-SLAM research. We conclude by presenting the limitations and proposing future research possibilities. We believe that this survey will be helpful to researchers in understanding the various methods and techniques applied to A-SLAM formulation.
translated by 谷歌翻译
A default assumption in reinforcement learning and optimal control is that experience arrives at discrete time points on a fixed clock cycle. Many applications, however, involve continuous systems where the time discretization is not fixed but instead can be managed by a learning algorithm. By analyzing Monte-Carlo value estimation for LQR systems in both finite-horizon and infinite-horizon settings, we uncover a fundamental trade-off between approximation and statistical error in value estimation. Importantly, these two errors behave differently with respect to time discretization, which implies that there is an optimal choice for the temporal resolution that depends on the data budget. These findings show how adapting the temporal resolution can provably improve value estimation quality in LQR systems from finite data. Empirically, we demonstrate the trade-off in numerical simulations of LQR instances and several non-linear environments.
translated by 谷歌翻译
Covid-19影响了世界各地,尽管对爆发的错误信息的传播速度比病毒更快。错误的信息通过在线社交网络(OSN)传播,通常会误导人们遵循正确的医疗实践。特别是,OSN机器人一直是传播虚假信息和发起网络宣传的主要来源。现有工作忽略了机器人的存在,这些机器人在传播中充当催化剂,并专注于“帖子中共享的文章”而不是帖子(文本)内容中的假新闻检测。大多数关于错误信息检测的工作都使用手动标记的数据集,这些数据集很难扩展以构建其预测模型。在这项研究中,我们通过在Twitter数据集上使用经过验证的事实检查的陈述来标记数据来克服这一数据稀缺性挑战。此外,我们将文本功能与用户级功能(例如关注者计数和朋友计数)和推文级功能(例如Tweet中的提及,主题标签和URL)结合起来,以充当检测错误信息的其他指标。此外,我们分析了推文中机器人的存在,并表明机器人随着时间的流逝改变了其行为,并且在错误信息中最活跃。我们收集了1022万个Covid-19相关推文,并使用我们的注释模型来构建一个广泛的原始地面真实数据集以进行分类。我们利用各种机器学习模型来准确检测错误信息,我们的最佳分类模型达到了精度(82%),召回(96%)和假阳性率(3.58%)。此外,我们的机器人分析表明,机器人约为错误信息推文的10%。我们的方法可以实质性地暴露于虚假信息,从而改善了通过社交媒体平台传播的信息的可信度。
translated by 谷歌翻译
我们从逻辑和公式大小方面概念化了解释性,在非常一般的环境中给出了许多相关的解释性定义。我们的主要兴趣是所谓的特殊解释问题,旨在解释输入模型中输入公式的真实价值。解释是一个最小尺寸的公式,(1)与输入模型上的输入公式一致,(2)将所涉及的真实价值传输到全球输入公式,即每个模型上。作为一个重要的例子,我们在这种情况下研究了命题逻辑,并表明在多项式层次结构的第二级中,特殊的解释性问题是完整的。我们还将在答案集编程中提供了此问题的实施,并研究了其与解释N-Queens和主导集合问题的答案有关的能力。
translated by 谷歌翻译
计算机视觉技术可以帮助自动化或部分自动化口面损伤的临床检查,以提供准确和客观的评估。为了开发此类自动化系统,我们评估了两种在口面评估视频中检测和时间分段(分析)重复的方法。从多伦多神经曲面数据集获得了患有肌萎缩性侧索硬化症(ALS)和健康对照(HC)个体的参与者的录制视频。检查了两种重复检测和解析方法:一种基于轨迹地标的工程特征和上嘴唇和下唇的朱红色 - 二连交界之间的距离(基线分析)的峰值检测(基线分析),另一种是使用预训练的变压器 - 基于repnet的基于深度学习模型(Dwibedi等,2020),该模型自动检测周期性,并在视频数据中解析周期性和半周期重复。在对两项口面评估任务的实验评估中 - 重复最大的口腔张开(打开)并重复“购买Bobby a Puppy”(BBP)(BBP) - repnet提供了比基于具有里程碑意义的方法更好的解析,并通过较高的平均相交量化的方法来量化。联合(IOU)关于地面真理手动解析。使用Repnet自动解析还根据BBP重复的持续时间清楚地分离了HC和ALS参与者,而基于里程碑的方法则不能。
translated by 谷歌翻译
对话研究的最终目标是开发可以在交互式设置中有效使用的系统。为此,我们在第9对话系统技术挑战中介绍了对话框的交互式评估。该曲目由两个子任务组成。第一个子任务涉及建立知识接地的响应生成模型。第二个子任务旨在通过与真实用户的交互式设置进行评估,旨在将对话模型扩展到静态数据集之外。我们的曲目挑战参与者开发强大的响应生成模型,并探索将它们扩展到与真实用户的来回互动的策略。从静态语料库到交互式评估的发展引入了独特的挑战,并促进了对开放域对话系统的更全面评估。本文概述了曲目,包括方法和结果。此外,它提供了有关如何最佳评估开放域对话框模型的见解
translated by 谷歌翻译
随着在过去十年的行业4.0技术的出现,机场经历了数字化,以利用这些技术的声称益处,如改善的运营效率和乘客经验。正在进行的Covid-19随着其变体的出现(例如三角洲,omicron)加剧了机场需要采用非接触式和机器人技术的新技术,以便在这种大流行期间提供旅行。然而,了解最近的挑战和成功因素,以便在机场采用数字技术。因此,通过对世界各地的机场运营商和管理人员的行业调查(n = 102,0.754,0.754 <Composite可靠性<0.892;在Covid-19期间进行),本研究确定了采用行业4.0技术(N = 20)所面临的挑战这加强了对机场支持技术采用的最佳实践或成功因素的理解。广泛使用的技术,组织环境(TOE)框架被用作调查问卷的定量部分的理论上。互补的定性部分用于支撑并延长调查结果。该行业调查是首要讨论,了解机场运营商在机场采用行业4.0技术方面的实施挑战。调查结果表明,尽管在机场采用各种行业4.0技术的通用挑战,但行业4.0技术在机场也没有在机场中实现相似的。
translated by 谷歌翻译
机场一直不断发展和采用数字技术,以提高运营效率,增强乘客经验,从现有基础设施产生辅助收入和提升能力。 Covid-19 Pandemase也挑战机场和航空利益相关者,以适应和管理新的业务挑战,例如促进非接触式旅游经验和确保业务连续性。使用行业4.0技术的数字化为机场提供机会,以解决与Covid-19大流行相关的短期挑战,同时也为未来的危机做准备未来的长期挑战。通过对102条有关文章的系统文献综述,我们讨论了当前在机场,相关挑战以及未来的研究方向上采用行业4.0技术的现状。本综述结果表明,行业4.0技术的实施正在慢慢获得机场环境的牵引力,并在发展未来机场的数字转型旅程中继续保持相关。
translated by 谷歌翻译
方便地访问社交媒体上的视听内容,结合了现代工具的可用性,如Tensorflow或Cheras,开源训练型和经济的计算基础设施,以及深度学习(DL)方法的快速演变,特别是生成的对抗性网络(GAN)使得可以生成DeepFakes来传播欺骗,复仇色情,金融欺诈,恶作剧,并扰乱政府运作。现有调查主要集中在检测到DeepFake图像和视频。本文提供了对基于工具和机器学习(ML)基于DeepFake发电的方法的全面审查和详细分析,以及用于检测音频和视觉泡泡的这种操纵的方法。对于每类DeepFake,我们讨论与操纵方法,当前公共数据集和绩效评估的关键标准相关的信息以及其结果。此外,我们还讨论了开放的挑战,并列举了未来的指导,以引导未来的研究人员对需要​​考虑的问题,以改善深蓝生成和检测的域。预计这项工作有望帮助读者了解DeepFakes的创作和检测机制,以及他们当前的限制和未来方向。
translated by 谷歌翻译